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心 元素 之 一 ， 有 反映 了 测验 的 内 部 结构 和 内 容 设计 ， 通 常 由 领域 


专家 根据 经 验 进行 主观 界定 ,因此 需要 对 可 能 存在 的 错误 进行 修正 。 本 研究 提出 了 一 种 新 的 


Q KEMPE IE TIE 


基于 完整 经 验 交 叉 相 乘 信息 矩阵 的 Wald-XPD 方法 。 采 用 Monte Carlo 


模拟 检验 了 新 方法 的 表现 ， 并 与 同类 方法 进行 了 比较 。 研 究 表明 : 新 开发 的 Wald-XPD 方法 


了 有 效 的 方法 。 


关键 词 认 知 诊断 模型 ， 
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经 典 


心理 测量 理论 及 项 目 反 应 理 六 


在 Q 矩阵 恢复 率 、 保 留 正 确 标 定 属性 的 比例 以 及 修正 错误 标定 属性 的 比例 这 三 个 主要 指标 
上 均 有 较 好 的 表现 ， 且 整体 上 优 于 其 他 方法 ,尤其 是 在 修正 错误 标定 的 属性 方面 。 通过 实证 
数据 展示 了 Wald-XPD 方法 在 Q 矩阵 修正 中 的 展 好 表现 。 总 之 ， 本 研究 为 Q 矩阵 修正 提供 


Q HERE, XPD RE, Wald 检验 


仓 采 用 单一 的 测验 分 数 来 描述 被 试 在 某 个 阶段 的 学 习 


效果 。 作 为 新 一 代 心 理 测量 理论 ， 认 知 诊断 (cognitive diagnosis) 的 主要 目的 是 提供 关于 被 试 
的 多 维 、 细 粒度 潜在 特质 (如 知识 、 认 识 过 程 、 技 能 、 策 略 、 人 格 特质 或 心理 障碍 等 ， 统 称 为 


属性 ) 的 诊断 性 评价 信息 ， 认 知 诊断 模型 


以 上 主要 目 


Q 矩阵 是 CDM 的 核心 元 素 之 一 
1990)， 它 不 仅 决 定 着 测验 的 内 部 结构 ， 


WwW 


(cognitive diagnostic model, CDM) 是 研究 者 为 了 实现 


的 而 提出 的 一 类 离散 潜 变 量 模型 (Rupp etal., 2010)。 目 前， CDM 已 广泛 应 用 于 心 


是 获得 准确 的 模型 参数 估计 和 被 试 分 类 的 关键 因素 (Na'jera et al., 2020)， 错 误 设 定 的 QE 
阵 会 产生 很 多 不 良 的 影响 ， 如 降低 模型 参数 估计 准确 性 、 导 致 较 差 的 模型 一 数据 拟 合 、 导 致 
昔 误 的 属性 


理 、 教 育 、 精 神 病理 学 等 领域 (Sorrel et al., 2016). 


,定义 了 测验 所 测 属性 与 项 目 之 间 的 对 应 关系 (Tatsuoka， 


也 关系 到 认 知 诊断 结果 的 准确 性 。 正 确 设 定 的 Q 和 矩 


估计 和 被 试 分 类 等 (Chiu, 2013; de la Torre, 2009; Rupp & Templin, 2008)。CDM 中 
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获取 Q 矩阵 的 方法 主要 是 由 领域 专家 根据 经 验 构建 (Sorrel et al., 2016)， 但 这 种 方法 包含 一 
定 的 主观 性 。 实 践 中 ， 原 始 Q 矩阵 有 较 大 可 能 包含 一 些 错误 设 定 (Rupp & Templin, 2008), 
如 何 修正 原始 Q 矩阵 中 可 能 存在 的 错误 是 研究 者 面临 的 重要 理论 与 现实 问题 。 

为 了 获得 正确 设 定 的 Q 矩阵 ， 国 内 外 研究 者 提出 了 多 种 修正 方法 ( 李 佳 等 ,2021)。 根据 
是 否 采 用 参数 化 的 CDM 描述 Q 和 阵 与 观察 作答 数据 之 间 的 关系 ， 可 以 将 Q EENE 
分 为 两 类 : 参数 化 和 非 参数 化 的 修正 方法 ， 前 者 需要 参数 化 CDM 的 参与 ， 后 者 不 需要 。 例 
如 ， 欧 氏 距 离 法 (Chiu, 2013)、 海 明 距 离 ( 汪 大 勋 ， 高 旭 亮 , 韩 雨 婷 等 , 2018)、 交 差 方法 


(intersection and difference; Wang et al., 2018) 等 属于 非 参 数 化 的 修正 方法 。 一 般 而 言 ， 非 参数 
化 方法 比较 的 是 理想 反应 与 观察 作答 反应 之 间 的 拟 合 ， 从 而 达到 修正 Q 和 矩阵 的 目的 。 在 非 
参数 化 方法 中 ,理想 反应 大 多 都 是 在 限制 条 件 较为 严格 的 情景 下 获得 的 ， 例 如， 限定 所 有 项 
目 只 适用 于 某 个 或 菜 几 个 特殊 的 ( 亦 称 ， 简 化 的 )CDM。 换 言 之 ， 非 参数 化 的 Q 矩阵 修正 方 
法 上 共有 样本 量 要 求 小 、 易 实现 等 优点 ,但 严格 的 前 提 条 件 限制 了 这 些 方 法 的 拓展 性 及 实用 性 。 
参数 化 Q 矩阵 修正 方法 是 在 参数 化 模型 框架 下 ， 使 用 各 种 统计 量 估计 出 最 能 拟 合 观察 数据 


的 Q 矩阵 。 在 特殊 的 CDM 框架 下 ， 如 DINA、DINO、R-RUM 等 (de la Torre, 2011)， 研 究 


者 开发 的 参数 化 修正 方法 主要 有 : 6 法 (de la Torre, 2008). y 法 ( 涂 冬 波 55,2012). S 统计 量 


方法 (Liu et al., 2012). EAMES IE FF 9i] 18 ZR (iterative modified sequential search; Terzi & de la Torre, 


2018). RMSEA 统计 量 (Kang etal., 2019), WMR R 法 (Yu & Cheng, 2020)、 最 优 反 应 分 布 


纯度 方法 ( 李 佳 等 , 2022) 等 。 在 饱和 CDM TER T (lll, G-DINA, generalized deterministic input 
noisy output “and” gate; de la Torre, 2011) 的 参数 化 Q 矩阵 修正 方法 主要 包括 : GDI(G-DINA 
discrimination index) 方 法 (de la Torre & Chiu, 2016)、 残 差 方法 (Chen, 2017). iJSD (iterative 


Jensen-Shannon divergence) 777 UJ iGDI (iterative GDD) 方 法 (Terzi, 2017). TLP (truncated Li 


penalty function) 方 法 (Xu & Shang, 2018)、 相 对 拟 合 统计 量 方法 ( 汪 大 勋 等 , 2020). Ma 和 de 


la Torre (2020) 提 出 的 GDI 和 基于 不 完整 信息 矩阵 (incomplete information matrix) ff) Wald 检 
验 相 结 合 的 Stepwise 方法 (为 了 便于 理解 且 与 本 文中 提出 的 新 方法 加 以 区 分 ， 将 Stepwise 77 
法 称 为 Wald-IC 方法 )、 以 及 Hull 方法 (CNa'jera etal., 2021) 等 。 尽 管 一 些 参数 化 的 修正 方法 可 
能 存在 运算 量 大 、 速 度 慢 的 不 足 之 处 但是， 这 类 修正 方法 尤其 是 在 饱和 的 CDM 框架 下 开 
发 的 方法 的 优点 在 于 灵活 性 高 、 不 需要 非 参 数 化 方法 那样 严格 的 前 提 假 设 。 因 为 饱和 模型 包 
含 多 类 特殊 模型 作为 特例 ， 且 在 Q 矩阵 没有 错误 设 定 或 存在 少量 错误 时 ， 可 以 较为 容易 地 
通过 模型 比较 的 方法 获得 恰当 的 特殊 模型 。 


开发 的 以 上 八 种 参数 化 Q 和 矩阵 修正 方法 中 ， 残 差 方 法 对 于 属性 过 
2 


在 饱和 CDM 框架 


"7| 


度 设 定 不 敏感 且 在 测验 长 度 较 短 时 统计 检验 力 可 能 会 偏 低 ; 当 样 本 量 较 小 时 , TLP 方法 会 高 
估 错 误 设 定 项 目的 数量 且 用 于 减少 错误 报告 率 的 重 抽样 校正 方法 (bootstrap bagging method) 
的 耗 时 可 能 会 特别 长 ; 模拟 研究 表明 iGDI 的 表现 与 JSD 的 表现 相当 、 甚 至 在 一 些 条 件 下 优 


T iJSD (Terzi, 2017); 相对 拟 合 统计 量 方法 需要 比较 测验 的 所 有 项 目 关于 


的 相对 拟 合 值 , 尽管 研究 者 提出 一 些 减少 计算 次 数 的 方法 , 但 是 在 测验 长 度 较 长 或 
较 多 的 情况 下 ， 计 算 耗 时 仍 有 可 能 特别 长 。GDI 在 饱和 CDM 框架 下 采用 单个 项 目 所 有 可 能 
的 属性 掌握 模式 中 正确 答对 概率 的 方差 来 衡量 Q 矩阵 中 相对 应 的 q 向 量 的 区 分 能 力 ， 选 择 


有 最 大 区 分 能 力 的 q 向 量 作为 正确 设 定 的 q 向 量 。 相 对 于 GDI 而 言 ，iGDI 的 估计 效果 有 了 


属性 所 有 可 能 组 合 


mr 


la 


一 定 程 度 的 改善 ， 但 是 这 类 方法 的 主要 缺点 是 需要 人 为 地 确定 一 个 截止 值 (Na'jera et al., 
2019)。 以 GDI 研究 为 基础 ，Ma 和 de la Torre (2020) 将 Q 失 阵 修正 的 视角 延伸 到 多 级 计 分 


模型 ， 在 seq-GDINA 模型 (the sequential GDINA model; Ma & de la Torre, 2016) 下 提出 了 GDI 


和 基于 不 完整 信息 和 矩阵 的 Wald 检验 相 结 合 的 Wald-IC 方法 。Wald-IC 7; 1 8 7 


Pte 


法 从 单一 属性 的 q 向 量 中 确 


定 第 


个 所 需 属性 ， 再 逐步 多 次 采用 Wald 统计 量 决定 


采用 GDI 方 


是 否 增加 


或 删除 属性 来 选择 恰当 的 q 向 量 。 即 , 在 单个 项 目 上 Wald-IC 仪 需 执行 K-1 个 统计 检验 即 可 


完成 。Hull 方法 试图 在 模型 拟 合 与 简约 之 间 找 到 一 种 3 


F 衡 以 此 选择 恰当 的 q 向 量 ， 研 究 者 


(Na'jera et al., 2021) 通 过 模拟 研究 比较 了 GDI、Wald-IC 以 及 Hull 方法 ， 结 果 表 明 在 大 多 数 
条 件 下 Hull 的 表现 最 好 、Wald-IC MAHA Hull. 但 是 ，Hull 和 Wald-IC 在 修正 错误 标 
定 的 属性 方面 的 表现 较 差 ， 尤 其 是 Q 矩阵 中 存在 较 多 错误 设 定时 。 研 究 者 (Ma & de la Torre, 


2020; Na’jera et al., 2021) 构 建 的 Wald-IC 统计 量 是 使 用 不 完整 信息 矩阵 计算 的 。 先 前 研究 表 


H, 采用 不 完整 信息 抢 阵 构建 的 统计 量 在 后 续 研 究 中 会 导致 一 些 问 题 , 如 


误 (Philipp et al., 2018)、 


] 于 项 目 


氏 佑 模型 参数 标准 


功能 差异 检验 及 项 目 水 平 模型 比较 时 导致 一 类 错误 控制 率 


IK (Liu, Andersson et al., 2019; Liu, Yin et al., 2019; XŠ% 等 ,2016) 等 。 基 于 此 ， 本 研究 认 


为 Wald-IC 方法 在 修正 错误 标定 属性 方面 表现 较 差 的 主要 原因 可 能 是 在 Wald 统计 量 的 计算 


中 采用 了 不 完整 的 信息 矩阵。 


研究 者 (Liu et al., 2016; Liu, Xin et al., 2019; Liu et al., 2021; Philipp et al., 2018; x!) 27% 


等 ,2016) 认 为 CDM 中 同时 存在 两 种 类 型 的 模型 参数 : 项 目 参数 和 结构 参数 。 不 完整 信息 入 
阵 (de la Torre, 2009; 2011) 忽 略 了 结构 参数 ， 计 算 量 较 小 ， 有 和 较 大 可 能 导致 Q 算 阵 修正 结果 


不 够 准确 。 以往 研究 者 提 


上 了 多 种 完整 信 


Philipp etal.,2018; XŠ 等 ,2016)， 但 是 这 些 关 于 模型 参数 的 信息 矩阵 无 法 


阵 修 正中 Wald Zi Egi 


» K 


Tuy 


息 矩 阵 估 计 方 法 (Liu Xin etal., 2019; Liu etal., 2021; 


直接 月 


D 
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为 此 类 Wald 统计 量 中 使 用 的 是 关于 模型 参数 的 方差 一 协 


方差 矩阵 。 此 外 ， 与 其 他 完整 信息 矩阵 相 比 ， 经 验 交 叉 相 乘 信息 矩阵 (empirical cross-product 
information matrix, XPD; Liu et al., 2021; Philipp et al., 2018; XIB 等 , 2016) 计 算 量 较 小 ， 故 
本 研究 在 包含 全 部 模型 参数 的 XPD 算 阵 的 基础 上 ， 经 过 转换 获得 关于 项 目 正 确 作答 概率 的 
方差 一 协 方差 矩阵 ， 以 此 构建 用 于 Q 矩阵 修正 的 Wald 统计 量 ( 记 为 Wald-XPD)。 

本 文 的 主要 目的 在 于 提出 一 种 新 的 Q 矩阵 修正 方法 ， 并 通过 模拟 研究 与 实证 数据 分 析 
考察 新 方法 的 表现 。 模 拟 研究 参考 了 以 往 研究 者 研究 中 采用 的 模拟 条 件 (de la Torre & Chiu, 
的 表 
现 ， 并 与 同类 方法 进行 比较 ， 希 望 能 够 为 实践 研究 者 在 Q 算 阵 修正 方法 的 选用 方面 提供 方 


法 支持 。 本 研究 选择 GDI、Hull、Wald-IC 方法 与 Wald-XPD 方法 进行 比较 的 原因 是 : 首先 ， 


2016; Ma & de la Torre, 2020; Na jera et al., 2021)， 考 察 新 开发 的 方法 在 Q BBIE 


Wald-XPD 是 在 Wald-IC 方法 基础 上 提出 的 ， 新 方法 与 上 昌 方 法 表现 的 异同 有 竺 探索， 其 次 ， 


先前 研究 表明 在 GDI. Hull. Wald-IC 三 种 方法 中 , Hull 的 表现 是 最 好 的 , 故 有 必要 比较 Hull 


与 Wald-XPD 两 种 方法 的 表现 ; 第 三 ， 限制 GDI 及 iGDI 方法 实践 应 用 的 主要 原因 是 这 两 种 
方法 均 需 要 人 为 地 设置 一 个 截止 值 , 与 iGDI 相 比 ,固定 的 截止 值 对 GDI 方 法 的 影响 相对 较 
小 (Na'jera et al., 2020)， 因 此 本 研究 将 GDI 也 纳入 比较 。 本 文 的 第 三 部 分 介绍 了 以 往 研究 者 
在 饱和 的 CDM 框架 下 提出 的 参数 化 Q 矩阵 修正 方法 。 第 三 部 分 介绍 了 新 开发 的 Wald-XPD 
e 方法 。 第 四 部 分 采用 模拟 研究 ， 在 较 广泛 和 真实 的 条 件 下 探索 Wald-XPD 方法 的 具体 表现 ， 
R 并 与 GDI、Hull 以 及 Wald-IC 方法 进行 比较 。 第 五 部 分 探讨 Wald-XPD 方法 在 实证 数据 分 
析 中 的 应 用 ， 并 与 Hull 方法 、Wald-IC 方法 进行 比较 。 最 后 对 Wald-XPD 方法 进行 了 讨论 与 


c 展望 。 
2 饱和 CDM 框架 下 的 参数 化 Q 矩阵 修正 方法 

在 认 知 诊断 测验 中 ，Q 矩阵 是 建立 可 观察 的 被 试 作答 反应 和 不 可 观察 的 项 目 特征 之 间 

联系 的 桥梁 。 一 般 而 言 ， 二 值 计 分 测验 中 的 Q 是 了 xK 维 的 矩阵 , 表示 J 个 项 目测 量 了 KK 个 


属性 。 通 常 也 将 属性 假定 为 三 值 计 分 ， 根 据 项 目 j eB 


IETEK qu TAR 0 或 者 1。 


假如 ， 一 份 测验 包含 3 个 项 目 ， 共 考察 了 2 个 属性 ， 那么 根据 项 目 和 属性 之 间 的 关系 ， 可 以 
构建 如 下 Q JERE: 


~ 


其 中 ，q,=[1,0] 表 示 测 验 中 的 第 一 个 项 目测 量 了 属性 1( 即 wm)。 但 是 ， 不 同 专家 界定 的 Q 矩 


4 


阵 不 尽 相 同 , 合理 设 定 Q 拢 阵 并 非 易 事 。 璧 如, 国内 外 研究 者 对 于 分 数 减 法 数据 中 (Tatsuoka, 
1990) 的 属性 设 定 , 至 今 仍 存在 争议 (dela Torre & Chiu, 2016; 汪 大 勋 ， 高 旭 亮 , BHA 等 ,2018)。 
因此 ， 对 原始 Q 矩阵 进行 修正 是 非常 必要 的 。 

本 研究 以 G-DINA 模型 为 例 ， 考 察 新 提出 的 Wald-XPD 方法 在 Q 矩阵 修正 的 表现 ， 并 


与 以 往 研究 者 提出 的 GDI, Wald-IC、Hull 方法 进行 比较 。 G-DINA 模型 是 一 般 、 饱 和 的 CDM 


模型 ， 对 其 进行 适当 约束 ， 可 以 获得 多 种 特殊 模型 (de la Torre, 2011)。 令 a 表示 第 1 种 属性 


掌握 模式 ，q, =[ 9,,,…,qix ] 表示 项 目 j 与 测验 中 K 个 属性 之 间 的 对 应 关系 ， 在 饱和 的 G- 


DINA 模型 中 ， 正 确 答 对 项 目 j 的 概率 可 表示 为 : 


P,(a,)=P, (a, q;)- 79300 25 > 9 ， et) nt’ Lie ye 7 (1) 


k=l k =k+ 


其 中 ，5m 是 项 目 7 的 截 距 项 参数 ，5x 是 oi ERIM, 3, eas ay 之 间 的 交互 


效应 参数 。 需 要 特别 说 明 的 是 ， 在 公式 (0) 中 ， 如 果 必 或 q 中 的 某 个 元 素 等 于 0， 那 么 对 应 


的 项 目 参数 5 也 等 于 0。 


2.1 ”GDI 方法 


Bl 


GDI 方法 (de la Torre & Chiu, 2016): E G-DINA 模型 框架 下 提出 的 ， 其 基本 思想 是 : 使 
用 项 目 j 中 所 有 可 能 的 属性 掌握 模式 条 件 下 的 正确 答对 概率 的 方差 来 衡量 q 向 量 的 分 辨 能 
力 ， 选 择 有 最 大 分 辨 能 力 的 q 向 量 作为 正确 设 定 的 q 向 量 ， 即 正确 设 定 的 q 向 量 能 够 使 不 


同属 性 掌握 模式 的 被 试 正确 作答 概率 方差 最 大 化 。GDI 方法 采用 辨别 指数 5; (discriminating 


index) 表 示 正 确 作答 概率 的 方差 ， 即 项 目 j 的 某 个 q 向 量 关 于 所 有 可 能 的 属性 掌握 模式 的 被 
试 正确 作答 概率 的 方差 : 
9 = 2 wa, Lp, (a,) - P, Y Q) 


EP, p (0) 表示 拥 有 属性 掌握 模式 为 om 的 被 试 正确 作答 的 概率 ; p, 表示 所 有 被 试 平均 的 


正确 作答 概率 。 另 外 ， w(a, |x) 表示 在 测验 项 目的 观察 反应 矩阵 x 中 属性 掌握 模式 为 的 被 


试 的 后 验 概率 : 


Ws 2 (silos) = (3) 


公式 G) 中 ，N RANMA L(x, |a, ) 表 示 属 性 掌握 模式 为 a, 的 被 试 i 在 所 有 项 目 上 作答 反应 


Xx; 的 条 件 似 然 函数 ;xz(a, ) 表 示 拥 有 第 1 种 属性 掌握 模式 的 被 试 在 总 体 中 所 占 的 比例 ， 即 第 


1 个 结构 参数 。 


= 


生 掌 握 模 式 的 被 试 的 能 力 。 有 


辨别 指数 5; 用 来 衡量 一 个 项 目的 辨别 力 ， 即 区 分 不 同属 


最 大 GDI 且 需 要 最 少 属性 数 的 q 向 量 ， 才 是 正确 设 定 的 g 向 量 。 但是， 实践 中 由 于 随机 误 
差 ， 过 度 设 定 (over-specifications, OS) 的 q 问 量 比 正确 设 定 的 q 向 量 有 更 大 的 GDI 值 ， 如 全 


为 1 的 q 向量 (q =[1,.…,1]) 有 最 大 的 GDI 值 。 因 为 在 原 有 q 向 量 的 基础 上 增加 属性 会 导致 
潜在 组 差异 ， 使 成 功 概率 的 方差 变 大 ， 故 q =[1...1 ERO c2, 是 最 大 的 。 然 而 ， 这 种 较 高 的 
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潜在 组 之 间 的 差异 是 虚假 的 。 本 着 合适 与 简约 原则 , 正确 设 定 的 q 向 量 应 是 简单 且 有 最 大 成 
功 作答 概率 方差 的 , 故 delaTorre 和 Chiu(2016) 计 算 了 gq 向 量 的 所 占 方差 PVAF(the proportion 


of variance accounted for): 


PVAF = 2— (4) 


= 


性 掌握 模式 的 被 试 正 确 作 答 概率 


HB. c 表示 项 目 j 的 全 为 1 的 q 向 量 关 于 所 有 可 能 的 属 

的 方差 。 

截止 值 用 来 判断 一 个 q 向 量 的 PVAF 是 否 合适 。 一 个 正确 设 定 的 q 向 量 需 要 满足 两 个 
条 件 : (1)PVAF 大 于 截止 值 ; (2) 包 含 的 属性 数 最 少 。 若 多 个 q 向 量 同时 满足 以 上 两 个 条 件 ， 
则 选择 PVAF 值 最 大 的 q 向 量 作为 正确 设 定 的 q 向 量 。 
2.2 Hull 方法 

Hull 方法 (Na'jera et al., 2021) 的 基本 原理 是 : 在 项 目 水 平 上 比较 所 有 可 能 q 向 量 的 拟 合 
指标 。 将 所 有 可 能 的 q 向 量 呈 现在 Hull BL, Hull 图 的 横 坐 标 表示 与 每 个 q 向 量 相关 的 参 
数 数量 ， 纵 坐标 表示 拟 合 指标 。Hull 方法 选取 的 拟 合 指标 有 两 个 : 第 一 个 是 PVAF， 用 来 评 


= 


估 不 同 q 向 量 的 项 目 区 分 度 大 小 ; 第 二 个 是 绝对 模型 拟 合 指数 McFadden pseudo- R? 


(McFadden, 1974)， 用 于 衡量 观察 反应 中 方差 所 占 的 比例 ， 评 估 获 得 的 估计 值 与 观察 反应 之 
间 的 拟 合 度 (Hull 方法 的 两 个 指标 在 下 文 分 别 表示 为 HullP 和 HullR)。 选 择 项 目 j 中 不 同 参 


数 数量 下 有 最 大 PVAF 或 McFadden pseudo- R^ 值 的 q 向 量 作 为 候选 q 向量， 任意 两 个 候选 


q 向 量 之 间 会 形成 一 条 线段 ， 将 该 线段 下 方 的 所 有 q 向 量 移 除 ， 故 Hull 图 成 一 条 单调 递增 
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的 曲线 。 假 设 项 目 j A K=3, ABAD PVAF 为 指标 的 Hull 图 如 图 1 fra, B 


体 表示 候选 q 向 量 ， 下 方 黑色 字体 表示 该 候选 q 向 量 的 PVAF。 


4 
参数 数量 


1 K=3 时 ， 以 PVAF 为 指标 的 Hull 图 


对 于 Hull 方法 的 两 个 拟 合 指标 而 言 ， 添 加 项 目 中 相关 联 的 属性 会 


值 ; 添加 不 关联 的 属性 也 会 增加 拟 合 指标 的 值 ， 但 影响 可 能 较 小 。 


显著 增加 拟 合 指标 的 


故 从 拟 合 一 简约 相 平 衡 的 
MAER, Æ Hull 图 中 选择 先 使 拟 合 指标 显著 增加 ， 然 后 使 拟 合 指标 平缓 增加 的 候选 q 向 


量 作 为 正确 设 定 的 q 向 量 。 基 于 此 ， 研 究 者 采用 st 指数 (Ceulemans & Kiers, 2006) 计 算 每 个 


候选 q 向 量 的 拐角 大 小 (the magnitude of the elbow), f£ st 指数 最 大 的 候选 q 向 量 作 为 正确 


设 定 的 q 向 量 : 


(Kix - fxs) ("Px -npy4) 
Stix = 
Fa — c)" (Pia z npg) 


要 强调 的 是 ， 移 除 候选 q 向 量 下 方 所 有 的 q 向 量 之 后 ， 若 图 中 仅 剩 下 


的 q 向 量 (q =[1,…,1])， 则 选择 全 为 1 的 q 向 量 作为 该 项 目 正确 设 定 的 q 向 量 ; 


其 中 ，fix 和 npx 分 别 表示 项 目 j 的 KK 个 候选 q 向 量 的 拟 合 指标 和 参数 数量 。 


若 图 中 仍 有 


(5) 


原点 处 和 全 为 


两 个 或 多 个 q 向 量 ， 则 计算 每 个 q 向 量 的 st 指数 ，st 指数 最 大 的 候选 q 向 量 即 为 该 项 目 正 


确 设 定 的 q 向 量 。 


2.3 Wald-IC 方法 


用 于 Q 矩阵 修正 的 Wald 统计 量 也 是 在 项 目 水 平 上 进行 的 ， 
所 对 应 的 q 向 量 定 义 了 2 个 及 以 上 的 属性 ， 如 果 将 某 一 属性 从 qd 


其 基本 原理 是 : 假设 : 
向 量 中 移 除 而 没有 导致 模 


mA j 


一 数据 拟 合 变 差 ， 那么 这 个 属性 就 不 是 必需 的 。 为 便于 理解 ， 现 举例 说 明 。 假 设 一 个 测验 


共 测量 了 2 个 属性 ， 即 =2， 那 么 ， 所 有 可 能 的 属性 掌握 模式 有 4 种， 可 以 表示 为 : 


Q 

p 
— OF c 
= = oO oD 


假设 待 检验 的 q 向 量 为 q =[1,1] ， 那 么 相应 的 项 目 正确 作答 概率 的 向 量 可 以 表示 为 : 


p, (a) 9n 
Dj (a,) Ôo + on 
(a)= = 
ae) p, (a) 9, + Oi 
P,(a,)} [oti +5. +6 


检验 属性 1( 即 wm) 是 否 是 必需 的 ， 首 先 需 要 构建 w% 的 及 矩阵; 


1 -10 0 
R= 
aa 


本 文中 ,“x FAP REE BR I BINS, Ze as EAS» A a, 在 统计 上 不 是 必需 的 , ABA R xp (a)=0 . 


即 : 


a 


aC) 

1 -1 0 0] |p, (a) RÀ. 

p 0 1 M p, (45) m oF » 
(a,) 


Dj Qo, 


表明 掌握 w 不 会 增加 正确 答对 项 目 7 的 概率 ， 故 ww 不 是 必需 的 。 此 外 , 检验 属性 2( 即 中 ) 是 


否 必 需 的 R 矩阵 为 : 
f 0 -1 A 
R= 
01 0 -1 


需要 说 明 的 是 ， 对 于 项 目 7 而 言 ， 不 同 的 待 检验 属性 所 对 应 的 q 向 量 是 不 同 ， 也 就 是 项 目 参 


数 估计 值 是 不 同 的， 因此 ， 向 量 p,(o) 的 值 不 是 固定 的 。 


Wald-IC 统计 量 的 形式 为 : 


Wald, =[Rxp,(a) | (Rx V, xR’) [Rxp,(a)| (6) 


其 中 ，Vi, 是 基于 不 完整 信息 矩阵 计算 的 项 目 /正确 作答 概率 的 方差 一 协 方差 矩阵 。 


Wald-IC 方法 修正 Q 矩阵 的 步骤 为 : 首先 ， 需要 构建 一 个 2“" x2 MIR DEBE, KER 


待 检验 的 q 向 量 中 定义 的 项 目 j 需要 的 属性 数量 。 在 零 假 设 下 ， 即 属性 在 统计 上 不 是 必需 
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的 , 那么 Rxp,(0)=0。 其 次 , 需要 对 不 完整 信息 矩阵 求 逆 获得 项 目 正 确 作 管 概率 的 方差 一 协 


方差 矩阵 Vac, ,来 构建 Wald 统计 量 。Ma 和 de la Torre (2020) 采 用 的 是 de la Torre (2009) 提 出 


的 考虑 全 部 项 目 正确 作答 概率 的 不 完整 信息 矩阵 估计 方法 To : 


OL(x) aa) 
Ip = x j (7) 
alp] a[p,(a) | 


Rh, dx) 表示 观察 数据 的 对 数 似 然 函 数 。 理 论 上 , 用 于 Q 和 矩阵 修正 的 Wald 统计 量 渐 近 y^ 
Ti, 自由 度 是 25- 。 但 是 , Wald-IC 统计 量 中 方差 _ 协 方差 矩阵 的 计算 存在 不 准确 的 问题 ， 


S 


可 能 导致 Q 矩阵 修正 的 效果 不 理想 。 
= 3 ”基于 完整 XPD 矩阵 的 Wald-XPD 方法 


= 3.1 (EA XPD 和 矩阵 构建 Wald-XPD 统计 量 


m Philipp 等 人 (2018) 和 Liu 等 人 (2021) 用 结构 参数 描述 被 试 总 体 的 潜在 属性 掌握 模式 a 


的 分 布 状况 ，x = (msn) « EGRE K 22, 那么 在 这 个 测验 中 被 试 所 有 可 能 的 属性 掌握 模式 
0) 有 L=4 种 ，x, =X(@ ) 表 示 被 试 总 体 中 具有 第 1 种 属性 掌握 模式 w 的 分 布 比例 。 例 如 ， 
x(a ) 是 被 试 总 体 中 具有 第 1 种 属性 掌握 模式 w =[0,0] 的 分 布 比 例 。 

研究 者 提出 了 很 多 完整 信息 矩阵 的 估计 方法 ， 主 要 有 : 完整 的 经 验 交 叉 相 乘 信息 矩阵 


(Liu et al., 2021; Philipp et al., 2018; X| Š% 等 , 2016)、 完 整 的 观察 信息 矩阵 (observed 


information matrix; Liu et al., 2021; x2 等 ,2016)、 完 整 的 三 明治 信息 矩阵 (sandwich-type 


information matrix; Liu, Xin et al., 2019; Liu et al., 2021) 等 。 由 于 考虑 所 有 模型 参数 ， 完 整 信 
FFE BEAT EE BOK , 尤其 是 观察 信息 矩阵 以 及 三 明治 信息 矩阵 涉及 观察 数据 的 对 数 似 然 函 
数 关 于 所 有 模型 参数 的 二 阶 偏 导 , 计算 量 非 常 大 。 本 文采 用 观察 数据 对 数 似 然 函数 关于 项 目 
参数 6 和 结构 参数 天 的 一 阶 导向 量 交叉 相 乘 而 计算 的 XPD FE BE: 


| Of(x) < 20) a) |. O(x) 
08, 06,  O0ó, ôT, 
Typ) = l E l (8) 
Ua AU) U(X) Of(x) 
| ôT, 00, Oz,, ÔT, 


在 构建 Wald 统计 量 之 前 ， 本 研究 首先 对 XPD 和 矩阵 做 了 以 下 三 个 方面 的 处 理 : 


(1) 对 XPD FEES WE, BRET ETT FEF Lup» BU: Lypp=Zxpp o RN Ep 中 项 目 


JSD 285—225 EE E, o 


J 


(2) 采 用 M ,矩阵 (dela Torre, 2011)38 3E BERRIEN H 2280 80 77 AT EEEE, PE 


J 


换 为 项 目 正确 作答 概率 的 方差 _ 协 方差 矩阵 Voas, M: Voen = M,xE,. M, ERE 


2* x2% 维 的 矩阵 ， 表 示 项 目 j 中 各 个 属性 掌握 模式 与 项 目 参 数 之 间 的 对 应 关系 ， 可 以 将 项 


目 参数 转换 为 各 个 属性 掌握 模式 下 的 正确 作答 概率。 例如， 假设 项 目 j 中 ;=2 ， 则 对 于 饱 


和 G-DINA 模型 而 言 该 项 目的 M, 矩阵 可 以 表示 为 ; 


1000 
1100 
Mtm 0 1 0 
1111] 
通过 ML 矩阵， 可 以 获得 该 项 目 中 各 个 属性 掌握 模式 下 的 正确 作答 概率 向 量 p,(o) : 


1 0 0 0] [Sn à, 
TOE A "ie On tO, 
10 1 0| /|ó, Ojo + Oj 
1 11 1] Lo+on+op+9m 
根据 统计 学 中 模型 参数 方差 一 协 方差 矩阵 的 性 质 (或 参考 Li & Wang, 20153)， 可 以 通过 ML E 


阵 将 项 目 参数 的 方差 一 协 方差 矩阵 互 ; 转换 为 项 目 正 确 作 答 概率 的 方差 一 协 方差 矩阵 Vixpp),。 


因此 ， 基 于 XPD 矩阵 构建 Wald 统计 量 的 形式 为 : 


Wald pp) = [R xP; (a) | (R X V xpp); X R)' [R xp, (a) | (9) 


(OXT Eke AA SE E EE, ERE PES ERA PSR, RER 
大 ， 修 正 过 程 较 为 耗 时 。 故 本 研究 采用 C++ 语言 编号 XPD 和 矩阵， 提高 Q 矩阵 修正 的 速度 。 


3.2 Wald-XPD 方法 的 具体 实施 步骤 


Wald-XPD 方法 用 于 Q 矩阵 修正 是 逐个 项 目 进行 的 。 假设 项 目 j 的 q 向 量 的 集合 是 由 单 
B 


一 属性 构成 的 . A 是 所 需 属性 的 集合 , B 是 需要 修正 的 目标 属性 的 集合 , 修正 之 初 , A - D. 


B={1,2,....K}« 
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A=2 
B={1, 2. 3} 


更 新 集合 A、B 
A={1、2}; B={3} 
和 A={1、3}; B={2 


构建 q 向 量 (110) 和 
(101) 的 Wald 


分 别 求 出 q 向 量 (110) 和 (101) 中 
各 个 属性 的 p 值 


选 出 (110) 和 (101) 中 
有 最 太 PVAE 的 q 向 量 
假设 (110) 有 最 大 PVAF 


显著 性 检验 确定 (110) 中 
哪个 属性 应 该 被 称 除 或 添加 
展 设 属性 2 应 该 添加 ， 属 性 1 应 该 移 


oh] 


确定 属性 1 是 否 应 该 被 移 除 
假设 属性 1 不 应 该 被 移 除 ， 
则 当前 9 向 量 为 (110) 


9 向 量 (110) 的 
RVAE 是 否 >0.9 


更 新 集合 A、B 
A-(1. 2. 3}:B=3 


构建 q 向 量 (111) 的 
Wald 


求 出 (111) 中 3 个 属性 的 z 值 


显著 性 检验 确定 (111) 中 
哪个 属性 应 该 被 物 除 或 添加 
BERREZARRI Bi 


u 


搞定 属性 1 和 属性 2 是 否 应 该 被 移 除 ， 


假设 属性 1 和 属性 2 均 不 应 该 被 移 除 ， 
则 当前 q 向 量 为 (111) 


qi] & (111) PAA 
加 或 者 移 除 的 属性 


2 Wald-XPD 方法 用 于 q, 向 量 的 修正 流程 图 
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本 研究 新 提出 的 Wald-XPD 方法 的 修正 步骤 如 下 : 

FRA): 选择 项 目 j 中 具有 最 大 PVAF 值 的 单一 属性 q 向 量 
属性 ， 更 新 集合 A、B。 

步骤 (2): 将 该 单一 属性 q 向 量 的 PVAF 值 与 0.95 进行 比较 ， 大 于 0.95 说 明 该 q 向 量 是 
合适 的 ， 停 止 修正 ， 否 则 继续 修正 。 

HRB): 更 新 集合 A、B。 选 出 具有 较 大 PVAF 的 q 向 量 进行 修正 ， 将 该 q 向 量 中 各 属 
性 使 用 Wald-XPD 统计 量 进行 显著 性 检验 ， 确 定 该 q 向 量 对 应 的 集合 A 和 集合 B 中 的 属性 
是 否 应 该 移 除 或 添加 ， 然 后 判断 q 向 量 的 PVAF 是 否 大 于 0.95， 大 于 0.95 说 明 这 个 q 向 量 

合适 的 ， 停 止 修正 ， 否 则 继续 修正 。 
步骤 (4): 重复 步骤 3)， 直 到 某 个 q 向 量 的 PAVE EKF 0.95， 或 者 没有 属性 移 除 或 添 


加 则 停止 修正 。 


包含 的 属性 为 第 一 个 所 需 


pall 


rau 


ARS) 在 单个 项 目 修正 结束 后 , 重新 计算 PVAF 以 及 Wald-XPD 统计 量 ， 直 到 达到 最 
大 迭代 或 者 某 次 迭代 结束 后 的 q 向 量 与 前 一 次 迭代 的 q 向 量 完全 相等 则 停止 修正 。 

为 了 便于 理解 , 现 举例 说 明 Wald-XPD 方法 用 于 某 个 项 目的 q 向 量 的 修正 算法 。 假设 项 
HJP qa 向 量 的 属性 数 K =3 ，Wald-XPD 方法 修正 该 q 向 量 的 过 程 如 图 2 所 示 。 
4 模拟 研究 

模拟 研究 的 目的 是 在 较为 广泛 和 真实 的 条 件 下 探讨 Wald-XPD 方法 在 Q 矩阵 修正 中 的 


表现 ， 并 与 以 往 研究 者 提出 的 GDI、Wald-IC 以 及 Hull (HullP、HullR) 方 法 进行 比较 。 


itr 


41 方法 


4.1.1 研究 设计 


为 便于 比较 ， 本 研究 参考 以 往 研 究 设计 (Ma & de la Torre, 2020; Na'jera et al., 2021)， 共 


操纵 了 5 种 因素 :项 目 数 和 属性 数 的 比例 (ratio of number of items to attribute, JK)、 样 本 量 (N)、 


Q 矩阵 错误 设 定 的 比例 (Q-matrix misspecification rate, QM)、 属 性 分 布 (attribute distribution, 
AD)、 项 目 质 量 (item quality, 10)。 本 研究 将 属性 数 设 置 为 K=4 ， 因 为 这 是 应 用 类 文章 中 最 经 
ui 


常 出 现 的 属性 数 (Na’jera etal., 2020), 以 往 研究 中 常用 的 项 目 数 是 11 到 30 (Sessoms & Henson, 


2018)， 故 本 研究 将 项 目 数 设 置 为 16 和 32， 所 以 ， 本 研究 共 考 虑 2 种 测验 结构 : 


J =16| (K=4)x(JK=4)]. J =32[(K=4)x(JK=8) | . EREA AKF: 500 和 1000 (Chen, 


2017; de la Torre, 2011; Ma & de la Torre,2016)， 分 别 代表 小 样本 和 大 样本 。 本 研究 共有 48 个 
实验 条 件 ， 各 因素 水 平 如 表 1 所 示 。 


表 1 模拟 研究 中 各 因素 水 平 汇总 


EN 因素 水 平 
样本 量 N 500、1000 
项 目 数 和 属性 数 的 比例 JK 4. 8 

属性 数 4 

平均 项 目 质量 IO 0.4、0.6、0.8 

属性 分 布 AD 均匀 分 布 、 高 阶 分 布 
错误 设 定 的 比例 OM 0.15、0.3 

链接 函数 G-DINA 模型 

Q REE IEZTTA GDI. Wald-IC. Hull (HullP. HullR). Wald-XPD 

4.1.2 数据 生成 
被 试 的 属性 掌握 模式 从 两 种 分 布 中 产生 : 均匀 分 布 和 高 阶 分 布 (de la Torre & Douglas, 


2004)。 对 于 均匀 分 布 ， 每 个 被 试 的 属性 掌握 模式 是 从 所 有 可 能 的 属性 掌握 模式 中 以 相等 的 


概率 随机 生成 的 ， 对 于 高 阶 分 布 ， 被 试 的 能 力 (2 ) 来 自 于 标准 正 态 分 布 ， 属 性 难度 参数 5 在 


[-1.5, 1.5] 之 间 给 出 等 距 值 (Ma & de la Torre, 2020). 


项 目 质量 分 为 高 、 中 、 低 3 个 水 平 。 高 项 目 质 量 : P,(0) -U(0,02) H.P, (1) -U(0.8,) ; 


中 等 项 目 质量 : P(0)-U(0.1,0.3) B. P (1)~U(0.7,0.9) ， 低 项 目 质量 : P,(0)- U(0.2,0.4) H. 


P,(1)~U(0.6,0.8) 。 其 中 ，P (0) 表示 仅 赁 猜测 答对 的 概率 ，P (1) 表示 掌握 项 目 所 要 求 的 全 


部 属性 的 被 试 答对 该 项 目的 概率 。 成功 的 概率 有 两 种 限制 : (1) 项 目 反 应 函数 在 属性 数 上 具有 
单调 性 ，(2) 与 单个 属性 相 联系 的 项 目 参数 的 总 和 限制 为 大 于 0.15。 这 两 个 条 件 保证 所 有 的 
属性 都 具有 不 可 忽视 的 作用 。 

真实 Q 矩阵 符合 以 下 限制 ，(1) 每 个 Q 矩阵 至 少 包含 两 个 单位 矩阵 (identity matrix); (2) 
除了 两 个 单位 矩阵 外 ， 每 个 项 目 至 少 测量 一 个 属性 ; (3)Q 和 窍 阵 由 一 个 属性 q 向 量 (50%)、 两 
个 属性 q 向 量 (25%) 和 三 个 属性 q 向 量 (25%) 组 成 。 这 个 比例 主要 是 参考 之 前 研究 (Na'jera et 
al, 2021)， 使 用 较 高 比例 的 单一 属性 q 向 量 的 原因 是 满足 每 个 Q 矩阵 至 少 包 含 两 个 单位 矩 


阵 的 模型 可 识别 条 件 (Gu et al., 2018)。 错 误 设 定 的 Q 矩阵 的 比例 为 0.15 和 0.3。 错 误 设 定 


是 在 两 个 约束 条 件 下 随机 引入 : (1) 所 有 项 目 必 须 至 少 测量 一 个 属性 ;，(2) 始 终 保留 一 个 单位 
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在 每 个 条 件 下 , 均 生 成 500 个 数据 集 , 每 个 数据 集中 生成 新 的 真实 Q 矩阵 和 项 目 参数 。 
所 有 的 模拟 研究 和 分 析 都 在 R 软件 中 进行 。 
4.1.3 评价 指标 


QRR(Q-matrix recovery rate) 用 来 测量 Q 矩阵 的 恢复 比例 ， 可 以 表示 为 ; 


QRR — Jal k=l (10) 


其 中 ，7() 是 指示 函数 ， 若 修正 前 后 项 目 j 的 q 向 量 完全 一 致 ， 则 7(g8 =49)=1, BH 


(d =g%)=0。gqW Fg 分 别 表示 项 目 j 中 属性 的 建议 g 元 素 和 真实 gq 元素 。 


TPR(true positive rate) 表 示 保 留 正确 标定 属性 的 比例 : 


J K 
EDR =al aie = aie ) 


TPR =" (11) 


Hop, qO 表示 项 目 ] 中 属性 的 原始 g 元 素 。 


TNR(true negative rate) 表 示 修 正 错 误 标定 属性 的 比例 : 


337101 - qii qd rago) 


TNR = 5 = (12) 
Y» sn) 
本 研究 除了 使 用 QRR, TPR. TNR 来 考察 各 个 方法 总 体 的 表现 之 外 ， 还 参考 其 他 指标 


来 获得 更 加 全 面具 体 的 结果 。OS Rat KE, US(under-specifications) ER i WIE, K 


J K 

OS - Y Y (af? >49) (13) 
j=l k=l 
J K 

US= > (4% < aie) (14) 


以 上 五 个 指标 从 不 同方 面 反映 了 Q 矩阵 的 修正 效果 。 其 中 ，QRR、TPR、TNR 的 值 越 
高 ， 表 示 该 修正 方法 的 Q 矩阵 恢复 率 以 及 保留 正确 标定 属性 和 修正 错误 标定 属性 的 比例 越 
高 ， 修 正 效果 越 好 。OS 和 US 的 值 越 小 ， 表 示 该 修正 方法 存在 较 少 过 度 设 定 和 音 冀 设 定 的 
趋势 ， 修 正 效 果 越 好 。 
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42.1 GDI, Hull, Wald-IC 以 及 Wald-XPD 在 各 因素 不 同 水 平 上 的 表现 


表 2 呈现 了 GDI, Hull (HullP、HullR)、Wald-IC 以 及 Wald-XPD 方法 在 各 因素 不 同 水 平 
上 的 QRR、TPR、TNR、0S 和 US 值 ， 表 中 加 粗 数据 是 相同 条 件 下 的 最 优 结果 。 

首先 ， 比 较 的 是 各 实验 条 件 的 综合 影响 。Q 和 矩阵 错误 设 定 的 比例 、 项 目 质量 、 样 本 量 以 
及 属性 分 布 对 于 GDI、Wald-IC、Hull (HullP、HullR) 以 及 Wald-XPD 方法 在 各 个 指标 上 的 表 


现 有 明显 影响 。 除 Hull QIullP、HullR) 方 法 的 TPR 指标 受 项 目 质量 的 影响 较 小 外 ， 在 项 目 质 
量 较 高 的 条 件 下 , 所 有 方法 的 表现 均 优 于 其 他 水 平 。 Q 矩阵 错误 设 定 的 比例 和 样本 量 对 于 四 
种 方法 在 各 个 指标 上 的 表现 也 存在 一 定 的 影响 ， 随 着 Q 矩阵 错误 设 定 的 比例 降低 和 样本 量 
增 大 ， 四 种 方法 均 有 更 好 的 Q 矩阵 修正 表现 。 均 匀 分 布下 ， 四 种 方法 在 各 个 指标 上 的 表现 
均 优 于 高 阶 分 布 。 就 JK 因素 而 言 ，JK 对 于 GDI, Wald-IC 和 Wald-XPD 在 QRR 指标 上 的 
表现 ， 以 及 所 有 的 修正 方法 在 TNR 指标 上 的 表现 影响 明显 ， 所 有 指标 在 JK-8 水 平 下 的 结 
果 优 于 JK-4. 

其 次 ,比较 的 是 四 种 修正 方法 的 综合 表现 。 所 有 方法 在 QRR 以 及 TPR 指标 上 没有 表现 
出 明显 优 劣 .其 中 , 本 研究 中 新 提出 的 Wald-XPD 在 TNR 指标 上 的 表现 明显 优 于 其 他 方法 ; 
GDI 在 OS 指标 上 的 表现 较 优 ， 但 是 在 US 指标 上 表现 相对 较 差 ，HullR 在 OS 指标 上 的 表 
现 较 差 ， 但 是 在 US 指标 上 表现 相对 较 优 5， Wald-IC 在 US 指标 上 表现 相对 较 差 。 

根据 以 上 综合 比较 可 知 ，Wald-XPD 以 及 HullP 在 各 个 指标 上 有 相对 较 好 的 表现 ， 且 在 


TNR 指标 上 Wald-XPD 的 表现 最 好 。 此外， 鉴于 Wald-XPD 是 在 Wald-IC 基础 上 新 提出 的 方 


法 ， 故 接 下 来 本 研究 主要 探讨 Wald-XPD. Wald-IC 以 及 HullP 方法 在 QRR, TPR 以 及 TNR 


这 三 个 主要 指标 上 的 具体 表现 , 并 重点 关注 Wald-XPD 在 TNR 指标 上 的 表现 , 即 Wald-XPD 
修正 Q 矩阵 中 错误 标定 属性 的 能 力 。 
4.22 Wald-XPD 在 修正 错误 标定 属性 时 的 表现 


图 3 呈现 的 是 HullP、Wald-IC 以 及 Wald-XPD 方法 在 48 种 具体 的 模拟 条 件 下 获得 的 
QRR 的 值 。 由 图 3 可 知 ， 项 目 质量 对 于 这 三 种 方法 的 表现 影响 最 为 明显 ， 随 着 项 目 质量 的 
提高 ，QRR 的 值 也 在 增加 。 另 外 ， 样 本 量 、Q 和 矩阵 错误 设 定 的 比例 以 及 属性 分 布 对 于 这 三 
个 方法 在 QRR 指标 上 的 表现 稍 有 影响 ， 且 趋势 一 致 。 就 QRR 指标 而 言 ，HullP、Wald-IC 以 
及 Wald-XPD 方法 的 表现 仅 有 细微 差异 ， 即 当 1O=0.4 时 Wald-XPD 的 表现 略微 低 于 另外 两 


la 


种 方法 。 


表 2 不 同 因素 水 平 的 结果 
OM IQ N JK AD 
方法 0.15 0.3 04 0.6 0.8 500 1000 4 8 均匀 分 布 高 阶 分 布 
QRR GDI 0.906 0.828 0.859 0.922 0.945 0.922 0.922 0.906 0.930 0.938 0.906 
Wald-IC 0.945 0.813 0.844 0.922 0.969 0.906 0.938 0.891 0.930 0.938 0.906 
HullP 0.930 0.852 0.875 0.945 0.953 0.938 0.953 0.938 0.945 0.953 0.930 
HullR 0.891 0.797 0.844 0.891 0.922 0.898 0.906 0.906 0.906 0.914 0.891 
Wald-XPD 0.937 0.867 0.820 0.938 0.969 0.906 0.953 0.906 0.945 0.953 0.906 
TPR GDI 0.944 0.922 0.933 0.936 0.953 0.936 0.945 0.944 0.936 0.954 0.926 
Wald-IC 0.945 0.933 0.908 0.954 0.969 0.933 0.956 0.944 0.945 0.956 0.938 
HullP 0.963 0.936 0.963 0.961 0.956 0.953 0.969 0.963 0.956 0.967 0.953 
HullR 0.936 0.911 0.953 0.927 0.930 0.927 0.944 0.956 0.922 0.944 0.926 
Wald-XPD 0.944 0.900 0.835 0.944 0.969 0.917 0.953 0.920 0.944 0.953 0.927 
TNR GDI 0.800 0.684 0.421 0.789 0.900 0.711 0.737 0.579 0.842 0.800 0.684 
Wald-IC 0.789 0.579 0.405 0.700 0.900 0.632 0.684 0.526 0.789 0.700 0.632 
HullP 0.800 0.684 0.368 0.833 0.947 0.737 0.800 0.600 0.895 0.816 0.700 
HullR 0.684 0.579 0.263 0.676 0.895 0.600 0.632 0421 0.763 0.684 0.579 
Wald-XPD 0.900 0.816 0.684 0.900 0.947 0.840 0.894 0.700 0.920 0.900 0.830 
OS GDI 0 3 3 0 0 0 0 0 0 0 0 
Wald-IC 1 5 3 1 0 1 0 1 0 0 1 
HullP 1 5 5 0 0 0 0 0 0 0 0 
HullR 8 11 9 9 6 8 8 5 11 7 8 
Wald-XPD 1 3 4 1 0 2 1 1 1 1 1 
US GDI 7 10 9 7 5 7 6 5 9 5 8 
Wald-IC 6 10 11 6 3 8 5 5 8 5 7 
HullP 5 8 6 5 4 5 4 3 6 4 6 
HullR 2 5 5 2 1 2 1 1 2 1 2 
Wald-XPD 5 8 12 4 3 7 5 5 6 4 7 
iE: 粗 体 表示 各 指标 不 同 水 平 下 的 最 好 结 
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图 3 HullP. Wald-IC 5j Wald-XPD 方法 在 QRR 指标 上 的 表现 
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图 4 HullP, Wald-IC 5j Wald-XPD 方法 在 TPR 指标 上 的 表现 
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方法 - HulP -+ Wald-IC = Wald-XPD 


图 5 HullP. Wald-IC 与 Wald-XPD 方法 在 TNR 指标 上 的 表现 


图 4 呈现 的 是 三 种 方法 在 TPR 指标 上 的 表现 。 由 图 4 可 知 ， 在 所 有 条 件 下 Wald-IC 以 
及 HullP 方法 均 能 获得 较 高 的 TPR 值 . 项 目 质量 对 于 Wald-XPD 方法 的 表现 有 一 定 的 影响 ， 
当 项 目 质量 较 低 时 ，Wald-XPD 在 TPR 指标 上 的 表现 不 如 Wald-IC 以 及 HullP 方法 ; 随 着 项 
目 质 量 的 提高 ， 三 种 方法 在 TPR 指标 上 的 表现 相当 。 

图 5 呈现 的 是 三 种 方法 在 TNR 指标 上 的 表现 。 在 所 有 条 件 下 ，Wald-XPD 方法 在 TNR 
指标 上 的 表现 均 是 最 优 的 ， 对 比 Wald-XPD 方法 在 TPR 及 TNR 上 的 表现 可 知 ， 低 项 目 质量 
条 件 对 这 个 方法 产生 了 一 些 不 利 影响 ， 而 在 中 等 或 高 项 目 质量 条 件 下 ，Wald-XPD 能 有 效 保 
留 Q 矩阵 中 正确 标定 的 属性 ， 也 能 有 效 修正 Q 矩阵 中 错误 标定 的 属性 。 测 验 长 度 较 短 、 项 
目 质量 较 低 及 Q 矩阵 错误 设 定 比例 较 高 时 HullP 方法 的 表现 较 差 , 结合 同样 条 件 下 HullP 在 
TPR 指标 上 的 表现 可 知 ， 虽 然 HullP 方法 在 保留 正确 标定 属性 方面 略微 优 于 Wald-XPD， 但 
是 它 较 多 地 保留 了 错误 标定 的 属性 。 即 ,HullP 方 法 倾向 于 较 少 地 修正 原始 Q 算 阵 中 的 属性 。 
在 低 项 目 质量 条 件 下 的 多 数 情景 中 , 虽然 Wald-IC 方法 在 TNR 上 的 表现 优 于 HullP, 但 是 在 
随 着 项 目 质 量 的 提高 HullP 在 多 数 情景 中 的 表现 优 于 Wald-IC。HullP、Wald-IC 以 及 Wald- 
XPD 方法 在 TNR 指标 上 的 表现 受 样本 量 、 测 验 长 度 、 项 目 质 量 、 属 性 分 布 及 错误 设 定 比例 


的 影响 明显 。 随 着 Q 矩阵 错误 设 定 比 例 降低 、 项 目 质 量 提高 、 测验 长 度 增加 , HullP 和 Wald- 
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IC 方法 的 TNR 值 有 所 提高 ， 但 仍 低 于 Wald-XPD 方法 的 TNR 值 。 


5 实证 数据 分 析 


本 研究 采用 实证 数据 进一步 考察 Wald-XPD 方法 的 表现 ， 并 与 HullP. Wald-IC 方法 进 


行 比较 。 被 试 反应 数据 及 测验 项 目 获 取 自 R 软件 包 pks (Heller & Wickelmaier, 2013), K Él 


德国 图 宾 根 (Tuebingen) 大 学 的 一 个 学 习 实验 ， 包 含 504 名 被 试 在 12 个 概率 论 测验 项 目 上 的 
作答 。Philipp 等 人 (2018) 认 为 这 个 数据 集 共 测试 了 四 种 不 同 的 属性 : w (计算 茶 事 件 发 生 概 
Zh a, (计算 茶 事件 的 对 立 事件 发 生 的 概率 )、 o (计算 两 个 无 关 事件 同时 发 生 的 概率 )、 a 


(计算 两 个 独立 事件 发 生 的 概率 )， 并 定义 了 表 3 所 示 的 原始 Q 矩阵 。 
表 3 原始 Q 矩阵 以 及 各 方法 对 属性 的 修正 情况 


原始 Q ABE 
项 
a, [A a, CA 
1 1 0 0 0 
2 0 1* 0* 0 
2 0 0 1 0 
4 0 0 0 1 
5 li 1 0 0^ 
6 T* 1 0 0 
7 1* 0* p* 0 
8 p* 0* 1 0* 
9 1 0 0 1*# 
10 0 1*#4 0 1 
11 1*#^ 1*# 0 1 
12 1* 0 1*#^ 1 


YE: * 为 Wald-XPD 方法 调整 的 属性 ，# 为 Wald-IC 方法 调整 的 属性 ，^ 为 HullP 方法 调整 的 属性 


本 研究 在 饱和 G-DINA 模型 框架 下 ， 使 用 HullP、Wald-IC 以 及 Wald-XPD 方法 对 原始 


Q 矩阵 进行 了 修正 。 表 3 中 的 结果 显示 ，HullP 方法 共 修正 了 6 个 元 素 ，Wald-IC 方法 共 修 


正 了 5 个 元 素 ，Wald-XPD 方法 一 共 修 正 了 16 个 元 素 ，Wald-IC 方法 修正 的 5 个 元 素 均 包括 


在 Wald-XPD 方法 修正 的 元 素 之 中 。 使 用 相对 拟 合 、 绝对 拟 合 及 近似 拟 合 指标 比较 原始 Q FE 


阵 、HullP、Wald-IC 及 Wald-XPD 方法 修正 后 的 Q 矩阵 的 模型 一 数据 拟 合 表现 。 拟 合 指 标 
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包括 :相对 拟 合 指标 AIC (Akaike information criterion)fll BIC (Bayesian information criterion), 


有 限 信息 绝对 拟 合 (limited-information absolute fit) 指 标 Mo 及 近似 拟 合 指标 RMSEA: (root 


mean square error of approximation; Liu etal.,2016)， 结 果 见 表 4。 就 相对 拟 合 指标 而 言 ，Qaum 


获得 最 佳 的 AIC 指标 , Qxpp 的 AIC 指标 与 其 接近 ; Qxpp 获得 最 佳 的 BIC 指标 , 其 次 是 Qrc， 
Quuie 的 BIC 指标 最 差 。 即 ，Wald-XPD 方法 修正 后 的 Q 矩阵 的 相对 拟 合 指 标 更 优 。 在 绝对 
拟 合 指 标 M2 上 , Qic 的 p<0.01, 表明 Wald-IC 方法 修正 的 Q 矩阵 与 数据 失 拟 ; Quare 和 Qxep 
H p 值 分 别 为 : 0.029 和 0.019， 表 明 HullP 和 Wald-XPD 方法 修正 后 的 Q 矩阵 没有 在 0.01 
显著 性 水 平 上 拒绝 模型 一 数据 拟 合 的 原 假设 。 对 于 RMSEA: 指标 而 言 ， 其 值 越 接 近 0 修正 
效果 越 好 ， 其 中 Qx 的 RMSEA: 最 接近 于 0， 即 Qxep 在 RMSEA? 指标 上 有 最 好 的 表现 (Liu 
etal.,2016)。 综 合 考虑 相对 拟 合 、 绝 对 拟 合 和 近似 拟 合 指标 ， 本 研究 认为 Wald-XPD 方法 修 
正 后 的 Q 矩阵 在 模型 一 数据 拟 合 方面 表现 最 优 。 

需要 特别 说 明 的 是 , 本 研究 的 目的 是 在 一 般 性 的 CDM 框架 下 开发 具有 广泛 适用 性 的 Q 
和 矩阵 修正 方法 。 因 此 ， 实 证 数据 分 析 的 重点 是 原始 Q EERIE, KAEM G-DINA 模 
型 的 基础 上 进一步 在 项 目 水 平 上 进行 模型 比较 (Liu, Andersson, etal., 2019). 53h, M 统计 量 
在 模型 参数 过 度 设 定时 ， 即 模型 中 宛 余 参 数 过 多 时 ， 可 能 存在 统计 检验 力 不 足 的 问题 (参考 
Chen et al., 2018)。 举 例 而 言 ， 对 比 原始 Qoriginat HEM 22 ETE a AI Qxep 矩阵 可 知 ，Qorigina 中 可 
能 存在 较 多 过 度 设 定 的 元 素 ， 因 此 ， 导 致 Qorigina 的 Mp 统计 量 的 p 值 大 于 0.01。 参 考 先前 
究 (Liu etal., 2016)， 本 文 认为 在 模型 一 数据 拟 合 评价 方面 ， 近 似 拟 合 统计 量 RMSEA? 可 能 
HH. 

根据 表 3 的 结果 可 知 , Wald-XPD 方法 修正 的 属性 中 , 对 wm 修正 最 多 , 共 修 正 6 个 题目 ， 
均 是 将 wm 从 1 变 成 0。 例 如 ， 第 6 题 “ 一 个 盒子 包含 20 个 以 下 颜色 的 大 理 石 : 4 个 白色 ，14 
个 绿色 ，2 个 红色 。 随 机 抽取 的 大 理 石 不 是 白色 的 概率 是 多 少 ? ”解决 这 个 问题 可 以 先 计算 
出 该 事件 的 对 立 事 件 发 生 的 概率 (0 ), 即 随机 抽取 的 大 理 石 是 白色 的 概率 , 然后 再 用 1 减 去 
该 对 立 事件 发 生 的 概率 即 可 得 出 正确 结论 。 对 于 5、6、7 题 来 说 ， 当 被 试 掌握 ow 时 即 能 够 解 
Rina, Ma, 不 是 必需 的 。 再 如 ， 第 11 题 “ 车 库 里 有 50 辆 车 。20 辆 是 黑色 的 ，10 辆 是 柴油 
动力 的 。 假设 汽车 的 颜色 与 燃料 种 类 无 关 。 随 机 选择 的 汽车 不 是 黑色 的 , 而 是 柴油 动力 的 概 
率 是 多 少 ? " 题 中 汽车 颜色 与 燃料 种 类 是 独立 事件 ， 计 算 随 机 选择 的 汽车 不 是 黑色 的 而 是 柴 
动力 的 概率 即 两 个 独立 事件 发 生 的 概率 ( @ )， 当 被 试 掌握 m 时 即 能 够 解决 问题 ， 故 mw 不 


是 必需 的 。 在 5、6、7、8、11、12 这 OME, a 不 是 必需 的 ，Wald-XPD 方法 均 正 确 修正 
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ae 


了 错误 标定 的 w .所 以 说 , 使 用 Wald-XPD 修正 方法 获得 的 Qxpp 矩阵 在 理论 上 具有 合理 性 。 

值得 注意 的 是 ， 本 研究 中 提出 的 Q 矩阵 修正 方法 是 从 作答 数据 出 发 的 ， 在 一 定 程度 上 
可 以 避免 专家 标定 Q 矩阵 的 主观 性 ， 减 轻 专 家 负担 ， 但 是 客观 方法 标定 的 Q 矩阵 不 能 直接 
作为 最 终 的 Q 和 矩阵， 应 该 作为 专家 标定 Q 矩阵 的 重要 参考 (Xu & Shang, 2018). 


#4 基于 三 种 方法 修正 前 后 Q 矩阵 的 拟 合 指标 


相对 拟 合 指标 有 限 信息 拟 合 指标 
Q M 
AIC BIC RMSEA: 
M. df p 
Qoriginat 4979.256 5245.278 23.919 15 0.067 0.0343 
Qxep 4962.484 5152.500 51.991 33 0.019 0.0338 
Qic 4964.200 5171.110 50.051 29 0.009 0.0380 
Quuip 4954.912 5178.709 40.037 25 0.029 0.0345 
6 讨论 与 展望 
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CDM 依赖 正确 设 定 的 Q 矩阵 以 获得 准确 的 属性 剖面 分 类 (Rupp & Templin, 2008)。 以 往 
研究 者 提出 的 GDI. Wald-IC. Hull 方法 在 多 数 的 应 用 情景 中 虽然 有 较 好 的 表现 ， 但 这 些 方 
法 对 Q 矩阵 中 错误 标定 的 属性 不 够 敏感 。 本 研究 提出 使 用 完整 的 XPD FEET EF Q ^E 
阵 修正 的 方法 (Wald-XPD 方法 )， 并 系统 探讨 了 样本 量 、 测 验 长 度 、Q EERE AN 
属性 分 布 等 因素 对 Q 矩阵 修正 结果 的 影响 。 采 用 实证 数据 展示 了 新 提出 的 Wald-XPD 方法 
在 实际 应 用 中 的 表现 与 价值 。 

本 研究 结果 表明 : (1) 整 体 而 言 ，Wald-XPD 方法 的 表现 优 于 GDI、Hull、Wald-IC 方法 。 


Wald-XPD 方法 能 够 弥补 GDI. Hull, Wald-IC 方法 在 一 些 条 件 下 对 于 错误 标定 属性 不 敏感 
的 不 足 之 处 , HE Q 矩阵 恢复 率 和 保留 正确 标定 属性 的 比例 方面 也 有 较 好 的 表现 (2) GDI 
Hull, Wald-IC 和 Wald-XPD 方法 随 着 项 目 质量 的 提高 、 样 本 量 增 大 、 测 验 长 度 增 加 以 及 Q 
和 矩阵 错误 设 定 比 例 的 降低 , 在 修正 Q 窍 阵 上 有 更 好 的 表现 。 (3) 由 HullP、Wald-IC 以 及 Wald- 
XPD 方法 进一步 比较 的 结果 可 知 ， 三 种 方法 在 Q 矩阵 恢复 率 方面 差异 较 小 ，HullP、Wald- 
IC 在 保留 正确 标定 的 属性 方面 的 表现 略 优 于 Wald-XPD 方法 ， 但 在 所 有 模拟 条 件 下 ，Wald- 
XPD 方法 在 修正 错误 标定 的 属性 方面 的 表现 均 优 于 另外 两 种 方法 。(4) 实 证 数据 分 析 的 结果 
表明 ，Wald-XPD 方法 修正 后 的 Q 矩阵 与 原始 数据 有 最 优 的 拟 合 度 。 


21 


在 本 研究 操纵 的 5 种 因素 中 ， 项 目 质量 对 GDI. Hull, Wald-IC, Wald-XPD 方法 表现 的 
影响 较 大 , 样本 量 和 测验 长 度 也 对 四 种 修正 方法 的 表现 有 一 定 的 影响 。 出 现 这 种 现象 的 原因 
可 能 是 , 项 目 质 量 越 高 、 样 本 量 越 大 以 及 测验 长 度 越 长 ， 被 试 观察 作答 反应 甜 阵 中 包含 的 关 
于 CDM 中 未 知 参 数 的 信息 越 多 ， 因 此 ， 以 上 四 种 方法 的 表现 也 就 越 好 。 与 以 往 研究 类 似 


(Kang et al., 2019; Ma & de la Torre, 2020; Na’jera et al., 2021)， 本 研究 同样 认为 属性 分 布 对 于 


GDI、Hull、Wald-IC、Wald-XPD 方法 在 TNR 指标 上 的 表现 有 细微 的 影响 。 出 现 这 种 现象 的 
原因 可 能 是 ,， 当 属性 服从 均匀 分 布 时 所 有 可 能 属性 掌握 模式 分 布 的 概率 是 相等 的 ， 即 被 试 观 
察 作答 反应 矩阵 中 包含 的 关于 结构 参数 的 信息 是 一 样 的 。 当 属性 服从 高 阶 分 布 时 , 属性 之 间 
存在 一 定 的 关联 性 , 使 某 些 属性 掌握 模式 分 布 的 概率 可 能 会 比较 高 , 男 外 一 些 属性 掌握 模式 
分 布 的 概率 会 比较 低 ， 故 被 试 观察 作答 反应 矩阵 中 包含 的 结构 参数 的 信息 量 较 少 。 于 是 ， 当 
性 服从 均匀 分 布 时 ， 四 种 方法 在 各 个 指标 上 的 表现 略 优 。Q 和 矩阵 错误 设 定 的 比例 对 GDI 
Wald-IC. Hull 方法 表现 的 影响 较 大 ， 随 着 Q FRET BCE LE IAN IR, “ETRE AS XR IE et 


"Uni 
uu 


的 QRR, TPR 和 TNR 值 ,这 与 已 有 研究 结果 一 致 (Ma& de la Torre, 2020; Na 'jera et al., 2021). 
然而 ，Q 矩阵 错误 设 定 的 比例 对 Wald-XPD 方法 表现 的 影响 则 相对 较 小 ， 结 合 Wald-XPD 在 
TNR 指标 上 的 表现 ， 本 研究 认为 可 能 是 Wald-XPD 在 迭代 结束 前 的 循环 中 能 够 有 效 修正 Q 
矩阵 错误 标定 的 属性 。 


此 外 ， 研 究 结 果 表 明 ，Wald-XPD 方法 在 TPR 和 TNR 指标 上 与 Wald-IC、HullP 方法 的 


表现 不 同 。 在 TPR 指标 上 ，Wald-XPD 受 项 目 质量 低 的 影响 明显 ， 在 TNR 指标 上 ，Wald-IC 
和 HullP 受 项 目 质量 低 以 及 测验 长 度 短 的 因素 的 影响 明显 。TPR 指标 数值 低 ， 说 明 Q ERE 
修正 方法 倾向 于 修改 正确 标定 的 属性 ，TNR 数值 低 则 说 明 Q KERRI IE ATE PUE RIRE JS 
性 的 能 力 弱 。 综 合 TPR, TNR 两 个 指标 可 知 ， 虽 然 Wald-XPD 方法 在 项 目 质量 较 低 的 条 件 
下 能 够 较为 有 效 地 修正 错误 标定 的 属性 ， 但 是 存在 过 度 修 改正 确 标定 属性 的 倾向 。 换 言 之 ， 
Wald-XPD 方法 虽然 提高 了 Q 矩阵 修正 的 表现 , 但 是 在 项 目 质 量 较 低 的 情境 下 ,， 有 可 能 会 错 
误 地 修正 了 正确 标定 的 gq 元 素 。Wald-IC 以 及 HullP 虽然 在 项 目 质量 较 低 的 条 件 下 不 存在 过 
度 修 改正 确 标 定 属性 的 倾向 , 但 却 无 法 有 效 修正 错误 标定 的 属性 , 尤其 是 HullP 方法 。 所 以 ， 
本 研究 建议 使 用 Q 矩阵 修正 方法 时 ， 需 要 注意 项 目 质 量 ， 若 项 目 质量 较 低 ， 可 以 结合 多 种 
修正 方法 、 参 考 专 家 意见 进而 获得 准确 的 Q 矩阵 。 
本 研究 采用 C++ 语言 编写 XPD 和 矩阵， 在 一 定 程度 上 能 够 提高 Q 矩阵 修正 的 速度 ， 但 
是 ,由 于 Wald-XPD 方法 考虑 模型 中 的 全 部 参数 且 采 用 迭代 的 方式 进行 ,在 一 些 条 件 下 可 能 


耗 时 较 长 。 例 如 ，Wald-XPD 方法 最 短 的 平均 用 时 是 12.50s， 最 长 的 平均 时 间 需 要 746.01s。 
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Wald-XPD 方法 在 各 个 模拟 条 件 下 的 平均 运行 时 间 参 见 附录 中 的 表 AL. 
62 ”研究 展望 
本 研究 提出 的 Wald-XPD 方法 在 Q 矩阵 修正 中 有 较 好 的 表现 ,但 仍 存在 一 些 不 足 之 处 ， 


值得 后 续 研究 者 进一步 探讨 。(1) 虽 然 Wald-XPD 统计 量 有 明确 的 渐 近 分 布 (分布 ), 不 需要 


像 GDI 类 方 法 那样 人 为 地 确定 一 个 截止 值 ， 但 限于 研究 目的 和 篇 幅 本 文 仅 在 0.05 显著 性 水 
平 上 对 于 Wald-XPD 统计 量 的 表现 进行 了 显著 性 检验 , 未 来 研究 者 可 以 进一步 探讨 不 同 的 显 
车 性 水 平 对 于 Wald-XPD 统计 量 表现 的 影响 。O) 本 研究 仅 以 完整 信息 矩阵 中 的 XPD 矩阵 构 
建 Wald 统计 量 进行 Q 矩阵 修正 ， 除 了 XPD 矩阵 之 外 ， 研 究 者 还 可 以 将 其 他 完整 信息 矩阵 
构建 的 Wald 统计 量 用 于 Q HERBIE, "n Liu 等 人 (2021) 提 出 改进 的 观察 信息 矩阵 以 及 三 明 
治 信息 矩阵 。 不 同类 型 的 完整 信息 箱 阵 构建 的 Wald 统计 量 在 Q 矩阵 修正 中 的 表现 也 值得 进 
-—- 一 步 研究 。(3) 本 研究 仅 在 G-DINA 模型 下 对 Q 矩阵 修正 方法 进行 了 对 比 研究 ，G-DINA Tz 
= 型 适用 于 O- 计 分 的 测验 情景 ， 但 在 心理 与 教育 测验 中 存在 较 多 的 多 级 计 分 数据 。 研 究 者 们 
开发 了 很 多 能 用 于 多 级 计 分 的 CDM， 如 多 级 计 分 GDM (von Davier, 2008)， 研 究 者 可 以 将 
Wald-XPD 方法 拓展 到 多 级 计 分 模型 中 , 并 考察 其 在 多 级 计 分 模型 中 的 表现 。(4) 本 研究 在 考 
察 新 提出 的 Wald-XPD 方法 的 表现 时 ， 仅 与 一 次 修正 的 GDI, Wald-IC 方法 进行 了 比较 ， 研 


究 者 也 认为 GDI、Wald-IC Zi iE nf ARZT, WIN GDI 方法 (Na'jera etal., 2020)。 此 外 ， 
还 有 其 他 迭代 修正 的 方法 ， 如 友 代 修正 序列 搜索 (Terzi& de la Torre, 2018) 等 ， 研 究 者 也 可 以 


T 尝试 将 这 些 方法 与 Wald-XPD 方法 进行 比较 。(5) Wang 等 人 (2020) 评 估 了 在 Q 矩阵 部 分 已 知 
= 的 情况 下 ，GDI 和 Wald-IC 方法 在 估计 新 项 目的 q 向 量 中 的 表现 。 基 于 此 ， 未 来 研究 者 可 以 
r 在 Q 和 矩阵 部 分 已 知 的 情况 下 进一步 评估 Wald-XPD 方法 估计 Q 矩阵 的 表现 ， 并 与 已 有 的 Q 

和 矩阵 估计 方法 , 如 ICC-IR 方法 ( 汪 大 勋 ， 高 旭 亮 , Beth 55,2018). 似 然 比 D? 方法 ( 喻 晓 锋 等 ， 


2015)、 非 参数 Q 矩阵 校准 (Lim & Drasgow, 2017)、 两 阶段 搜索 算法 (Feng, 2013)、 似 然 比 检 


验 (Wang et al., 2020) 等 方法 进行 比较 。 
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Abstract 


A Q-matrix, which defines the relations between latent attributes and items, is a central building 
block of the cognitive diagnostic models (CDMs). In practice, a Q-matrix is usually specified 
subjectively by domain experts, which might contain some misspecifications. The misspecified Q- 
matrix could cause several serious problems, such as inaccurate model parameters and erroneous 
attribute profile classifications. Several Q-matrix validation methods have been developed in the 
literature, such as the G-DINA discrimination index (GDI), Wald test based on an incomplete 
information matrix (Wald-IC), and Hull methods. Although these methods have shown promising 
results on Q-matrix recovery rate (QRR) and true positive rate (TPR), a common drawback of these 
methods is that they obtain poor results on true negative rate (TNR). It is important to note that the 
worse performance of the Wald-IC method on TNR might be caused by the incorrect computation 
of the information matrix. 

A new Q-matrix validation method is proposed in this paper that constructs a Wald test with a 
complete empirical cross-product information matrix (XPD). A simulation study was conducted to 
evaluate the performance of the Wald-XPD method and compare it with GDI, Wald-IC, and Hull 
methods. Five factors that may influence the performance of Q-matrix validation were manipulated. 
Attribute patterns were generated following either a uniform distribution or a higher-order 
distribution. The misspecification rate was set to two levels: QM —0.15 and OM —0.3 . Two sample 


sizes were manipulated: 500 and 1000. The three levels of IQ were defined as high IQ, 


P, (0) ~ U(0,0.2) and P, (1) ~ U(0.8,1) ; medium IQ, P (0) ~U(0.1,0.3) and B (1) -U(0.7,0.9) ; 
and low IQ, P, (0) —U(0.2,0.4) and P, (1) — U(0.6,0.8). The number of attributes was fixed at 


K-4. Two ratios of the number of items to attribute were considered in the study: J =16 
[(K=4) x (JK=4)] and J =32 [(K=4)x (JK -8)]. 


The simulation results showed the following. 
28 


(1) The Wald-XPD method always provided the best results or was close to the best-performing 
method across the different factor levels, especially in the terms of the TNR. The HullP and Wald- 
IC methods produced larger values of QRR and TPR but smaller values of TNR. A similar pattern 
was observed between HullP and HullR, with HullP being better than HullR. Among the Q-matrix 
validation methods considered in this study, the GDI method was the worst performer. 

(2) The results from the comparison of the HullP, Wald-IC, and Wald-XPD methods suggested 
that the Wald-XPD method is more preferred for Q-matrix validation. Even though the HullP and 
Wald-IC methods could provide higher TPR values when the conditions were particularly 
unfavorable (e.g., low item quality, short test length, and low sample size), they obtain very low 
TNR values. The practical application of the Wald-XPD method was illustrated using real data. 

In conclusion, the Wald-XPD method has excellent power to detect and correct misspecified 
q-entry. In addition, it is a generic method that can serve as an important complement to domain 
experts’ judgement, which could reduce their workload. 


Key words cognitive diagnostic models, Q-matrix, XPD information matrix, Wald test 
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附录 : Wald-XPD 方法 在 各 模拟 条 件 下 的 平均 运行 时 间 


# Al Wald-XPD 方法 在 各 模拟 条 件 下 的 平均 运行 时 间 (S) 


模拟 条 件 AD OM IO N JK 时 间 
1 515] ffi 0.15 0.4 500 4 476.16 
2 高 阶 分 布 0.15 0.4 500 4 195.68 
3 515] aT AR 0.15 0.4 500 8 706.40 
4 高 阶 分 布 0.15 0.4 500 8 654.93 
5 5315] 4) fi 0.15 0.4 1000 4 302.90 
6 高 阶 分 布 0.15 0.4 1000 4 746.01* 
7 久 匀 分 布 0.15 0.4 1000 8 505.79 
8 高 阶 分 布 0.15 0.4 1000 8 320.67 
9 5315] 4) fti 0.15 0.6 500 4 68.17 
0 高 阶 分 布 0.15 0.6 500 4 67.66 
11 5315] 4) fti 0.15 0.6 500 8 54.11 
2 高 阶 分 布 0.15 0.6 500 8 81.36 
3 515] aT AR 0.15 0.6 1000 4 21.35 
4 高 阶 分 布 0.15 0.6 1000 4 90.22 
5 515] aT A 0.15 0.6 1000 8 56.11 
6 高 阶 分 布 0.15 0.6 1000 8 113.40 
7 515] ffi 0.15 0.8 500 4 12.93 
8 高 阶 分 布 0.15 0.8 500 4 21.20 
9 515] ffi 0.15 0.8 500 8 23.63 

20 高 阶 分 布 0.15 0.8 500 8 46.23 
21 5315] 4) fi 0.15 0.8 1000 4 12.97 
22 高 阶 分 布 0.15 0.8 1000 4 12.504 
23 5315] 4) fti 0.15 0.8 1000 8 48.36 
24 高 阶 分 布 0.15 0.8 1000 8 32.42 
25 5315] 4) fti 0.3 0.4 500 4 114.85 
26 高 阶 分 布 0.3 0.4 500 4 223.68 
27 515] 1f 0.3 0.4 500 8 750.26 
28 高 阶 分 布 0.3 0.4 500 8 310.86 
29 515] 4f 0.3 0.4 1000 4 163.41 
30 高 阶 分 布 0.3 0.4 1000 4 226.47 
31 515] ffi 0.3 0.4 1000 8 510.00 
32 高 阶 分 布 0.3 0.4 1000 8 696.73 
33 515] aT AR 0.3 0.6 500 4 63.20 
34 高 阶 分 布 0.3 0.6 500 4 111.59 
35 515] 4) fti 0.3 0.6 500 8 64.36 
36 高 阶 分 布 0.3 0.6 500 8 111.91 
37 5315] 4) fti 0.3 0.6 1000 4 61.61 
38 高 阶 分 布 0.3 0.6 1000 4 77.84 
39 5315] 4) fti 0.3 0.6 1000 8 95.48 
40 高 阶 分 布 0.3 0.6 1000 8 152.57 
41 5315] 4) fti 0.3 0.8 500 4 45.05 
42 高 阶 分 布 0.3 0.8 500 4 12.75 
43 515] aS AR 0.3 0.8 500 8 22.22 
44 高 阶 分 布 0.3 0.8 500 8 7242 
45 515] aT AR 0.3 0.8 1000 4 15.34 
46 高 阶 分 布 0.3 0.8 1000 4 25.56 
47 515] ffi 0.3 0.8 1000 8 54.40 
48 高 阶 分 布 0.3 0.8 1000 8 190.39 
JÈ: * 为 Wald-XPD 方法 在 模拟 条 件 下 的 最 长 运行 时 间 ，# 为 Wald-XPD 方法 在 模拟 条 件 下 的 最 短 运行 时 间 
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